## # A tibble: 5 x 10
## price speed hd ram screen cd multi premium trend date
## <int> <int> <int> <int> <int> <fct> <fct> <fct> <int> <date>
## 1 1499 25 80 4 14 no no yes 1 1993-01-01
## 2 1795 33 85 2 14 no no yes 1 1993-01-01
## 3 1595 25 170 4 15 no no yes 1 1993-01-01
## 4 1849 25 170 8 14 no no no 1 1993-01-01
## 5 3295 33 340 16 14 no no yes 1 1993-01-01
## [1] 6259 10
## Classes 'tbl_df', 'tbl' and 'data.frame': 6259 obs. of 10 variables:
## $ price : int 1499 1795 1595 1849 3295 3695 1720 1995 2225 2575 ...
## $ speed : int 25 33 25 25 33 66 25 50 50 50 ...
## $ hd : int 80 85 170 170 340 340 170 85 210 210 ...
## $ ram : int 4 2 4 8 16 16 4 2 8 4 ...
## $ screen : int 14 14 15 14 14 14 14 14 14 15 ...
## $ cd : Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 2 1 1 1 ...
## $ multi : Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 1 1 1 1 ...
## $ premium: Factor w/ 2 levels "no","yes": 2 2 2 1 2 2 2 2 2 2 ...
## $ trend : int 1 1 1 1 1 1 1 1 1 1 ...
## $ date : Date, format: "1993-01-01" "1993-01-01" ...
## price speed hd ram
## Min. : 949 Min. : 25.00 Min. : 80.0 Min. : 2.000
## 1st Qu.:1794 1st Qu.: 33.00 1st Qu.: 214.0 1st Qu.: 4.000
## Median :2144 Median : 50.00 Median : 340.0 Median : 8.000
## Mean :2220 Mean : 52.01 Mean : 416.6 Mean : 8.287
## 3rd Qu.:2595 3rd Qu.: 66.00 3rd Qu.: 528.0 3rd Qu.: 8.000
## Max. :5399 Max. :100.00 Max. :2100.0 Max. :32.000
## screen cd multi premium trend
## Min. :14.00 no :3351 no :5386 no : 612 Min. : 1.00
## 1st Qu.:14.00 yes:2908 yes: 873 yes:5647 1st Qu.:10.00
## Median :14.00 Median :16.00
## Mean :14.61 Mean :15.93
## 3rd Qu.:15.00 3rd Qu.:21.50
## Max. :17.00 Max. :35.00
## date
## Min. :1993-01-01
## 1st Qu.:1993-10-01
## Median :1994-04-01
## Mean :1994-03-30
## 3rd Qu.:1994-09-16
## Max. :1995-11-01
## Sumário:
## year(df_comp$date): 1993
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 999 1895 2285 2340 2695 5399
## --------------------------------------------------------
## year(df_comp$date): 1994
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 949 1778 2118 2196 2590 4799
## --------------------------------------------------------
## year(df_comp$date): 1995
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1195 1662 1899 2015 2340 3340
## Sumário:
## year(df_comp$date): 1993
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 25.00 33.00 33.00 43.89 66.00 66.00
## --------------------------------------------------------
## year(df_comp$date): 1994
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 25.00 33.00 50.00 51.91 66.00 100.00
## --------------------------------------------------------
## year(df_comp$date): 1995
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 33.0 66.0 66.0 70.6 100.0 100.0
##
## Valor máximo por ano:
## $`1993`
## [1] 909
##
## $`1994`
## [1] 1053
##
## $`1995`
## [1] 447
##
## Frequência por ano:
## year(df_comp$date): 1993
##
## 25 33 50 66
## 356 909 421 636
## --------------------------------------------------------
## year(df_comp$date): 1994
##
## 25 33 50 66 75 100
## 210 1053 401 945 53 245
## --------------------------------------------------------
## year(df_comp$date): 1995
##
## 33 50 66 75 100
## 71 172 447 69 271
## Sumário:
## year(df_comp$date): 1993
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 80.0 170.0 245.0 288.6 424.0 1370.0
## --------------------------------------------------------
## year(df_comp$date): 1994
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100.0 214.0 420.0 425.2 528.0 2100.0
## --------------------------------------------------------
## year(df_comp$date): 1995
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 210.0 528.0 545.0 680.8 850.0 2100.0
##
## Valor máximo por ano:
## $`1993`
## [1] 292
##
## $`1994`
## [1] 397
##
## $`1995`
## [1] 156
##
## Frequência por ano:
## year(df_comp$date): 1993
##
## 80 85 107 120 130 170 210 212 213 214 230 240 245 250 320
## 10 25 224 131 71 183 45 115 10 215 28 25 102 205 8
## 330 340 345 405 424 425 426 450 452 500 520 525 527 528 540
## 4 292 32 5 53 3 143 34 87 25 1 2 26 125 49
## 545 1000 1060 1100 1200 1370
## 18 5 2 6 3 10
## --------------------------------------------------------
## year(df_comp$date): 1994
##
## 100 107 120 125 128 170 200 210 212 214 230 240 245 250 256
## 6 153 52 4 1 24 5 57 179 322 2 11 27 15 1
## 260 270 320 340 364 420 424 425 426 428 450 452 470 527 528
## 1 51 4 397 3 154 66 85 240 34 17 1 1 77 397
## 530 540 545 720 728 730 810 1000 1080 2100
## 16 94 13 122 13 36 1 211 12 2
## --------------------------------------------------------
## year(df_comp$date): 1995
##
## 210 212 214 270 340 364 365 420 425 428 528 540 545 630 720
## 7 12 19 22 75 15 6 26 15 30 152 81 109 2 36
## 730 850 1000 1080 1200 1260 1600 2100
## 45 140 156 2 62 1 16 1
## Sumário:
## year(df_comp$date): 1993
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.000 4.000 4.000 6.949 8.000 32.000
## --------------------------------------------------------
## year(df_comp$date): 1994
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.000 4.000 8.000 8.425 8.000 24.000
## --------------------------------------------------------
## year(df_comp$date): 1995
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.00 8.00 8.00 10.91 16.00 32.00
##
## Valor máximo por ano:
## $`1993`
## [1] 957
##
## $`1994`
## [1] 1070
##
## $`1995`
## [1] 453
##
## Frequência por ano:
## year(df_comp$date): 1993
##
## 2 4 8 16 32
## 230 957 797 334 4
## --------------------------------------------------------
## year(df_comp$date): 1994
##
## 2 4 8 16 24
## 164 1039 1070 471 163
## --------------------------------------------------------
## year(df_comp$date): 1995
##
## 4 8 16 24 32
## 240 453 191 134 12
## Sumário:
## year(df_comp$date): 1993
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.00 14.00 14.00 14.46 15.00 17.00
## --------------------------------------------------------
## year(df_comp$date): 1994
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.0 14.0 14.0 14.6 15.0 17.0
## --------------------------------------------------------
## year(df_comp$date): 1995
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.00 14.00 15.00 14.97 15.00 17.00
##
## Valor máximo por ano:
## $`1993`
## [1] 1581
##
## $`1994`
## [1] 1700
##
## $`1995`
## [1] 477
##
## Frequência por ano:
## year(df_comp$date): 1993
##
## 14 15 17
## 1581 576 165
## --------------------------------------------------------
## year(df_comp$date): 1994
##
## 14 15 17
## 1700 939 268
## --------------------------------------------------------
## year(df_comp$date): 1995
##
## 14 15 17
## 380 477 173
## Sumário:
## year(df_comp$date): 1993
## no yes
## 1859 463
## --------------------------------------------------------
## year(df_comp$date): 1994
## no yes
## 1240 1667
## --------------------------------------------------------
## year(df_comp$date): 1995
## no yes
## 252 778
## Sumário:
## year(df_comp$date): 1993
## no yes
## 1859 463
## --------------------------------------------------------
## year(df_comp$date): 1994
## no yes
## 1240 1667
## --------------------------------------------------------
## year(df_comp$date): 1995
## no yes
## 252 778
## Sumário:
## year(df_comp$date): 1993
## no yes
## 210 2112
## --------------------------------------------------------
## year(df_comp$date): 1994
## no yes
## 361 2546
## --------------------------------------------------------
## year(df_comp$date): 1995
## no yes
## 41 989
## no yes
## 1993 0.0904 0.9096
## 1994 0.1242 0.8758
## 1995 0.0398 0.9602
Os dados analisados são provenientes do pacote Ecdat do software R (R Core Team, 2019). Eles correspondem às informações de vendas de computadores pessoais que ocorreram entre os períodos de Janeiro de 1993 até Novembro de 1995.
As variáveis disponíveis para as análises são: price: (int) preço em dólares americanos de computadores 486. speed: (int) velocidade do clock em MHz do processador hd: (int) tamanho do Hard Disk (HD) em MB. ram: (int) tamanho da memória de acesso randômico (RAM) em MB screen: (int) tamanho dos monitores de tubo em polegadas. cd: (Factor) presença ou ausência de leitora de CDROM. multi: (Factor) presença ou ausência de kit multimídia (auto falantes, placa de som). premium: (Factor) informações do fabricante dos computadores categorizadas por marca conhecida (yes), como IBM ou COMPAQ, ou não (no). trend: (int) tempo em meses de Janeiro de 1993 até Novembro de 1995. date: (Date) data das vendas dos computadores por anos e meses.
No ano de 1993 o preço médio U$ 2340 sendo que 90,96% foram vendidos por empresas consideradas premium, sendo que a a maioria dos computadores vendidos desse ano tem as seguintes características:
Para o ano de 1994 o preço médio dos computadores era de U$ 2196, com uma diminuição no preço comparado ao ano anterior. Nesse ano houve uma queda de aproximadamente 3.38% das vendas de computadores por empresas premium. Os computadores desse ano possuíam as seguintes características:
Para o ano de 1995, o último ano de estudo e avaliação do perfil de venda dos computadores nos EUA, tem preço médio de U$ 2015. Nesse ano as vendas de computadores por empresas premium aumentou para 96.02%, mostrando um domínio quase completo das vendas. As suas configurações são:
O ano de 1995 representa uma queda no valor médio dos computadores com aumentos em processamento, espaço de armazenamento e tamanho da tela de tubo. Também, todos os computadores que apresentaram possuir CDROM possuíam também o kit multimídia.
Monitores não têm informação se são coloridos ou de fósforo verde.
As características que representam a maior importância são price e ram. Gostaria de encontrar características que possam ser utilizadas para determinar o preço de um computador. Também suspeito que a ram e outras combinações de variáveis possam ser utilizadas para criar um modelo preditivo que ajude a determinar os preço de um computador entre 1993 até 1995. Outros anos não irão ser considerar, pois é preciso explorar nesse momento outras variáveis que o dataset não possui.
As características que representam a maior importância são price e ram. Gostaria de encontrar características que possam ser utilizadas para determinar o preço de um computador. Também suspeito que a ram e outras combinações de variáveis possam ser utilizadas para criar um modelo preditivo que ajude a determinar os preços de um computador entre 1993 até 1995. Outros anos não irão ser considerar, pois é preciso explorar nesse momento outras variáveis que o dataset não possui.
As variáveis ram, hd, speed e as categóricas podem contribuir para determinar o preço de um computador dentro da época em que os dados foram capturados. Penso que ram com speed possam ser de maior importância na contribuição por serem o que torna um computador em si mais rápidos, porém na época HDs também contribuíam para um alto preço, visto que o armazenamento era escasso.
Foi criado date que contém a data catalogada do preço de cada computador, ela foi utilizada pois trend que mostra apenas a contagem de meses a partir de janeiro de 1993 não é muito explicativa a humanos, assim ao utilizar datas temos uma visualização informativa e legível.
Não foi incluso na análise a variável ads (número de vezes que o valor do produto foi listado por cada mês) pois foi considerada redundante para as análises. O ano de 1995 possui apenas dados até novembro, o que acaba não informando as vendas durante a época de festas de dezembro que poderia conter um maior número de vendas.
Após criada a variável auxiliar date os dados possuíam dimensão de 6529 observações e 10 variáveis.
A primeira figura (Figura 1) é um Heatmap com a correlação entre as variáveis onde pudemos observar que, as variáveis hd e ram possuem uma forte correlação positiva, o que pode ser observado na Figura 13, também temos uma boa correlação entre ram e price.
Os mesmos pontos podem ser vistos na Figura 2, onde temos um gráfico da matriz de correlação com dispersão e na diagonal principal o histograma da distribuição de cada variável.
Na Figura 5 o gráfico de dispersão nos ajuda a observar a tendência monetária dos custos de computadores por ano com relação à velocidade de processamento da CPU. Em 1993 os computadores possuíam até 66MHz de processamento enquanto a partir de 1994 foram lançados processador com velocidades de até 100MHz e com um custo menor ou equivalente a processadores do ano anterior e com menor frequência. Em 1995, computadores com processadores de até 100MHz custava um pouco mais que U$ 2000.
Já o gráfico da Figura 6 representa a dispersão entre log10(price) e hd. No ano de 1993 podemos ver que as maiorias dos computadores possuíam HDs entre 80MB até 580MB, sendo que a maioria como foi validado anteriormente possuíam 340MB. Seus preços estavam entre valor de U$ 2000 até U$ 5000 dependendo de suas características. No ano de 1994 essa característica se mantém, com valor entre 80MB até 580MB de espaço de armazenamento, sendo que seus valores se mantiverem entre os U$ 2000 a U$ 5000. Em 1995 os HDs passam a ter um maior tamanho, sendo que os dados não informam vendas de computadores com menos de 180MB e os preços dos computadores despencam, com um custo mediano a baixo de U$ 2000.
A figura 7 apresenta a dispersão de log10(price) pela RAM. A memória RAM normalmente é vinculada a forma \(2^{i}\) com \(i = 1, 2, 3, ..., n\). Nesses dados têm valores entre 2MB até 32MB de memória RAM, sendo que em 1993 os valores estavam entre 4MB a 8MB em computadores com valores entre U$ 2000 a U$ 4000, alguns computadores até U$ 5000 podiam vir com até 16MB, com raros casos de maior quantidade. Já o ano de 1994 não houve grandes alterações, com alguns computadores podendo conter memórias até 24MB e valores inferiores a U$ 4000. Em 1995 os computadores com quantidades de até 32MB de memória custavam pouco mais de U$ 3000.
Podemos ver a tendência dos valores medianos entre os anos de 1993 até 1995 na Figura 8, onde temos que 90% dos computadores custam até pouco mais de U$ 3000 dependendo da época do ano, enquanto em média seu valor fica entre U$ 2000 e U$ 2500. Podemos ver um aumento súbito do valor monetário de computadores no ano de 1995, entre os meses de setembro até outubro, permanecendo constante até novembro, sendo que esta é uma eṕoca nos EUA que se tem uma baixa nos preços devido ao Black Friday ao contrário do ano anterior que houve uma queda dos preços referente ao mesmo período. Podemos pensar que uma possível razão para isso, é que o aumento da procura por computadores devido ao fato de sua popularização e as festividades de final de ano possam ter gerado um aumento na oferta e demanda.
A Figura 9 nos mostra uma tendência onde computador vendidos por marcas premium tem um menor custo comparados a computadores sem marca ou marcas não consideradas premium. Essa tendência e confirmada entre março de 1993 até setembro de 1995, onde vemos computadores com marca sendo comercializados com valores muito acima daqueles sem marca. Empresas premium costumam ter uma produção maior de computadores do que aquelas que não são premium, fazendo computadores terem um custo menor por unidade vendida, por isso se modifica no final de 1995 o que pode significar que o custo de marca esta sendo incluindo no valor desses computadores vendidos.
Na Figura 10, a partir de Março de 1993, podemos observar o aumento da procura do consumidor por computadores que possuíam drive de CD, sendo que esses possuíam valores maiores do que aqueles sem o periférico. Observa-se uma queda nos preços de computadores que não possuem o drive durante a passagem dos anos. Já os computadores que possuíam o drive tiveram uma queda de preço no início de 1995 porém ao final do mesmo ano os valores aumentaram expressivamente.
No primeiro semestre de 1993, os computadores eram comercializados sem kit multimídia, como pode ser observado na Figura 11. A partir de Julho do mesmo ano, começou a venda de computares com kit multimídia. Entretanto, o valor das vendas, embora seja um pouco maior para os computadores que possuíam o kit, não diferenciou muito dos computadores que não possuíam o kit. No final de 1995, nos meses de Agosto até Novembro, observa-se que houve um aumento no preço dos eletrônicos que tanto possuíam ou não o kit, porém os que possuíam o recurso de multimídia apresentavam um custo maior do que os que careciam desse recurso.
Já na figura 12 temos um arranjo de boxplots com as variáveis pelo log10(price). Com relação a velocidade da CPU, podemos ver que a mediana dos preços se encontra com valores a baixo de U$ 3000, independente da velocidade. Observa-se que as únicas diferenças que aparentam ser significativas esta entre a velocidade de 100MHz e a de 25MHz em relação ao preço. O mesmo pode ser observado para a memória RAM, a partir do momento que temos um aumento na quantidade de memória, temos um aumento no preço do computador.
As demais variáveis não parece ter uma influência significativa no preço final do produto.
A Figura 13 é outro gráfico de boxplot com relação entre o log10(price) e hd. Nele podemos ver pouca diferença do preço de computadores com armazenamento interno entre 85MB a 320MB, sendo que computadores com 80MB de armazenamento tem um custo bem próximo U$ 1000. Nota-se que para alguns computadores computadores com HDs 525MB a 1370MB apresentaram os maiores valores monetários em 1993. Já em 1994 poucos computadores tiveram preços acima de U$ 4000 com exceção de alguns computadores que possuíam HD de 728MB e 1000MB.
Em 1995 computadores que possuíam HDs com tamanhos de 1600MB e 2100MB são os que apresentaram o maior valor monetário.
Pela Figura 14 podemos observar que a medida que o tamanho do HD aumenta a quantidade de memória RAM também tende a aumentar. Com exceção do HD de 2100MB que possuía 16MB de RAM.
Pela Figura 15 observamos que as marcas premium vendiam computadores com kit multimídia e drive de CD com maior frequência e preços menores que aqueles sem marca premium. Observa-se também que computadores que não possuíam drives de CD não eram vendidos com kit multimídia.
## # A tibble: 6 x 8
## price speed hd ram screen cd_dummy multi_dummy premium_dummy
## <int> <int> <int> <int> <int> <dbl> <dbl> <dbl>
## 1 1499 25 80 4 14 0 0 1
## 2 1795 33 85 2 14 0 0 1
## 3 1595 25 170 4 15 0 0 1
## 4 1849 25 170 8 14 0 0 0
## 5 3295 33 340 16 14 0 0 1
## 6 3695 66 340 16 14 0 0 1
##
## Calls:
## m0: lm(formula = log(price) ~ speed, data = dados)
## m1: lm(formula = log(price) ~ speed + ram, data = dados)
## m2: lm(formula = log(price) ~ speed + ram + hd, data = dados)
## m3: lm(formula = log(price) ~ speed + ram + hd + screen, data = dados)
## m4: lm(formula = log(price) ~ speed + ram + hd + screen + cd_dummy,
## data = dados)
## m5: lm(formula = log(price) ~ speed + ram + hd + screen + cd_dummy +
## multi_dummy, data = dados)
## m6: lm(formula = log(price) ~ speed + ram + hd + screen + cd_dummy +
## multi_dummy + premium_dummy, data = dados)
##
## ============================================================================================================
## m0 m1 m2 m3 m4 m5 m6
## ------------------------------------------------------------------------------------------------------------
## (Intercept) 7.475*** 7.341*** 7.344*** 6.695*** 6.694*** 6.696*** 6.861***
## (0.008) (0.007) (0.007) (0.039) (0.039) (0.039) (0.038)
## speed 0.004*** 0.002*** 0.003*** 0.002*** 0.003*** 0.003*** 0.003***
## (0.000) (0.000) (0.000) (0.000) (0.000) (0.000) (0.000)
## ram 0.027*** 0.035*** 0.034*** 0.034*** 0.034*** 0.035***
## (0.000) (0.001) (0.001) (0.001) (0.001) (0.001)
## hd -0.000*** -0.000*** -0.000*** -0.000*** -0.000***
## (0.000) (0.000) (0.000) (0.000) (0.000)
## screen 0.046*** 0.046*** 0.046*** 0.044***
## (0.003) (0.003) (0.003) (0.003)
## cd_dummy -0.029*** -0.027*** -0.015*
## (0.006) (0.006) (0.006)
## multi_dummy -0.005 0.004
## (0.008) (0.008)
## premium_dummy -0.177***
## (0.008)
## ------------------------------------------------------------------------------------------------------------
## R-squared 0.096 0.415 0.436 0.460 0.462 0.462 0.501
## N 6259 6259 6259 6259 6259 6259 6259
## ============================================================================================================
## Significance: *** = p < 0.001; ** = p < 0.01; * = p < 0.05
Para a análise foram criadas variáveis dummys para as variáveis categóricas. Na seleção de variáveis explicativas e de modelo foi utilizado o método foward, onde é adicionada uma variável por vez e analisada se ela contribui significativamente para o modelo. Será adotado o nível de confiança de 95% para todos os testes de normalidade e significância das variáveis explicativas. Para o teste de significância dos coeficientes do modelo a hipótese nula (H0) representa que o coeficiente analisado é igual a zero e a hipótese alternativa (Ha) representa que o coeficiente analisado difere de zero, caso o p-valor do teste seja menor que 5% de significância será rejeitada a hipótese nula. Na tabela acima, observa-se que no modelo m6 a variável correspondente ao kit multimídia não foi significativa e portanto será removida da análise.
##
## Calls:
## m0: lm(formula = log(price) ~ speed, data = dados)
## m1: lm(formula = log(price) ~ speed + ram, data = dados)
## m2: lm(formula = log(price) ~ speed + ram + hd, data = dados)
## m3: lm(formula = log(price) ~ speed + ram + hd + screen, data = dados)
## m4: lm(formula = log(price) ~ speed + ram + hd + screen + cd_dummy,
## data = dados)
## m5: lm(formula = log(price) ~ speed + ram + hd + screen + cd_dummy +
## multi_dummy, data = dados)
## m6: lm(formula = log(price) ~ speed + ram + hd + screen + cd_dummy +
## multi_dummy + premium_dummy, data = dados)
## m7: lm(formula = log(price) ~ speed + ram + hd + screen + cd_dummy +
## premium_dummy, data = dados)
##
## =========================================================================================================================
## m0 m1 m2 m3 m4 m5 m6 m7
## -------------------------------------------------------------------------------------------------------------------------
## (Intercept) 7.475*** 7.341*** 7.344*** 6.695*** 6.694*** 6.696*** 6.861*** 6.862***
## (0.008) (0.007) (0.007) (0.039) (0.039) (0.039) (0.038) (0.038)
## speed 0.004*** 0.002*** 0.003*** 0.002*** 0.003*** 0.003*** 0.003*** 0.003***
## (0.000) (0.000) (0.000) (0.000) (0.000) (0.000) (0.000) (0.000)
## ram 0.027*** 0.035*** 0.034*** 0.034*** 0.034*** 0.035*** 0.035***
## (0.000) (0.001) (0.001) (0.001) (0.001) (0.001) (0.001)
## hd -0.000*** -0.000*** -0.000*** -0.000*** -0.000*** -0.000***
## (0.000) (0.000) (0.000) (0.000) (0.000) (0.000)
## screen 0.046*** 0.046*** 0.046*** 0.044*** 0.044***
## (0.003) (0.003) (0.003) (0.003) (0.003)
## cd_dummy -0.029*** -0.027*** -0.015* -0.013*
## (0.006) (0.006) (0.006) (0.005)
## multi_dummy -0.005 0.004
## (0.008) (0.008)
## premium_dummy -0.177*** -0.176***
## (0.008) (0.008)
## -------------------------------------------------------------------------------------------------------------------------
## R-squared 0.096 0.415 0.436 0.460 0.462 0.462 0.501 0.501
## N 6259 6259 6259 6259 6259 6259 6259 6259
## =========================================================================================================================
## Significance: *** = p < 0.001; ** = p < 0.01; * = p < 0.05
##
## One-sample Kolmogorov-Smirnov test
##
## data: rstudent(m7)
## D = 0.022975, p-value = 0.0027
## alternative hypothesis: two-sided
Duas pressuposições devem ser atendidas para que haja um ajuste satisfatótio do modelo linear, a normalidade dos resíduos e homogeneidade das variâncias residuais visto que os erros devem seguir uma distribuição normal com média zero e variância constante. As hipóteses testadas para a normalidade são: Hipotese nula (H0): Os resíduos tem distribuição normal versus Hipotese alternativa (Ha): Os resíduos não tem distribuição normal. Após a remoção da variável de kit multimídia foi ajustado um novo modelo e feita o teste de normalidade dos resíduos que resultou o p-valor de 0.0027 (p-valor < 0,05), pode-se concluir que rejeita-se a hipóteses nula ao nível de significância de 5%, portanto os resíduos não seguem uma distribuição normal, violando assim o primeiro pressuposto do modelo linear simples. Para corrigir a normalidade, uma alternativa é a remoção de outliers. Para tal, foi escolhido que observações com resíduos acima fora do intervalo \([-3, 3]\) devem ser removidos da análise.
##
## One-sample Kolmogorov-Smirnov test
##
## data: rstudent(m8)
## D = 0.010795, p-value = 0.4658
## alternative hypothesis: two-sided
##
## Calls:
## m8: lm(formula = log(price) ~ speed + ram + hd + screen + cd_dummy +
## premium_dummy, data = dados)
##
## ==============================
## (Intercept) 6.804***
## (0.036)
## speed 0.003***
## (0.000)
## ram 0.038***
## (0.001)
## hd -0.000***
## (0.000)
## screen 0.048***
## (0.002)
## cd_dummy 0.003
## (0.005)
## premium_dummy -0.181***
## (0.008)
## ------------------------------
## R-squared 0.544
## N 6195
## ==============================
## Significance:
## *** = p < 0.001;
## ** = p < 0.01;
## * = p < 0.05
Após a remoção dos outliers foi feito um novo modelo com os novos dados. Observa-se que a variável cd é não significativa (p-valor > 0,05) e portanto deve ser retirada da análise.
##
## Calls:
## m9: lm(formula = log(price) ~ speed + ram + hd + screen + premium_dummy,
## data = dados)
##
## ==============================
## (Intercept) 6.803***
## (0.036)
## speed 0.003***
## (0.000)
## ram 0.038***
## (0.001)
## hd -0.000***
## (0.000)
## screen 0.048***
## (0.002)
## premium_dummy -0.180***
## (0.007)
## ------------------------------
## R-squared 0.544
## N 6195
## ==============================
## Significance:
## *** = p < 0.001;
## ** = p < 0.01;
## * = p < 0.05
##
## One-sample Kolmogorov-Smirnov test
##
## data: rstudent(m9)
## D = 0.011308, p-value = 0.4066
## alternative hypothesis: two-sided
Após a remoção da variável cd, foi feito um novo modelo em que todos os coeficientes são significativos (p-valor < 0,05). Pela análise do coeficiente de determinação (\(R^2\)) observamos que as variáveis independentes explicam 54,4% da variável dependente, o que não é muito e indica que pode haver alguma variável explicativa significativa que não foi observada.
## (Intercept) speed ram hd screen
## 6.8033 0.0028 0.0382 -0.0003 0.0482
## premium_dummy
## -0.1802
A interpretação do modelo segue como: para uma unidade de MHz em processamento, o preço médio final do computador aumenta em U$ 0,0028. Para uma unidade de aumento em MB de memória RAM, o valor final médio do computador aumenta em U$ 0,0382. Para uma unidade de MB em HD o preço médio decai em U$ -0,0003. Para uma unidade de polegadas do monitor de tudo, o preço médio do produto aumenta em U$ 0,0482 e, por fim se a marca for premium o preço decai em U$ 0,1802, em média.
Para a segunda pressuposição da análise de modelo linear simples é necessário verificar a homogeneidade da variância residual. Os erros devem estar centrados em zero e estarem distribuídos de forma aleatória e homogênea quando for plotado os valores ajustados do modelo selecionado versus os resíduos do modelo, como pode ser observado na Figura 16
A normalidade dos resíduos pode ser avaliada tanto graficamente, pelo gráfico envelope da distribuição normal acima (qqplot com intervalo de confiança), quanto pelo teste de Kruskal-Wallis. Segundo o teste, não rejeitamos a hipótese nula e ao nível de significância de 5% podemos concluir que os resíduos seguem uma distribuição normal (p-valor de 0.4066).
Na Figura 18 observa-se os valores observados da variável dependente versus os valores preditos pelo modelo proposto, sugerindo um ajuste satisfatório do mesmo.
Foram criados no total nove modelos para a análise dos dados. Apesar de que as variáveis HD e RAM apresentaram forte correlação, indicando assim uma possível multicolinearidade entre essas duas variáveis. Foi estimado o Fator de Inflação da Variância (VIF) regredido a variável HD em relação as demais variáveis explicativas, observou-se um VIF < 10, não representando assim, a príncipio, um forte problema de multicolinearidade. Optou-se então por manter ambas as variáveis no modelo devido a pouca explicação que elas tem em relação a variável dependente (Referência: Multicolinearidade).
Na análise de normalidade dos resíduos, foi optado por escolher um modelo em que, por mais que os resíduos ultrapassem os limites de \([-3, 3]\), eles seguem uma distribuição de normalidade. Com a continuidade de limpeza de outliers essa pressuposição seria violada e assim não seria possível ajustar algum modelo satisfatório aos dados. O motivo disso pode ser devido ao fato de que a variável dependente não segue uma distribuição normal.
Apesar de ter transformado a variável resposta em logaritmo, ainda assim ela não apresenta uma distribuição normal (p-valor < 0,05) optou-se por fazer uma análise de modelo linear simples pois graficamente a distribuição do logaritmo do preço adquire aproximadamente uma forma simétrica de sino.
A figura acima foi documentada na análise multivariada demonstrando a não significância estatística das variáveis cd e multi como explicativas do preço dos computadores 486, como foi comprovado na análise de modelos.
Apesar do efeito da multicolinearidade e da falta de distribuição de normalidade da variável resposta, a figura acima demonstra que o modelo proposto se ajusta satisfatoriamente aos dados.
O dataset de computadores contém 6259 observações de 10 variáveis, dessas não existem valores nulos e os dados representam computadores entre os anos de 1993 até 1995. Inicialmente, foram feitas análises tabulares, de sumário e gráficas para analisar o perfil do consumidor nos anos correspondentes, assim como avaliar o comportamento das variáveis.
Na análise bidimensional, verificou-se uma alta correlação entre as variáveis hd e ram de 80%, e correlações moderadas para as variáveis price e ram e hd com trend, ambas com 60%. Na análise multivariada podemos ver as tendências de comportamento entre as variáveis com a variável dependente preço, tanto speed, hd, ram e screen mostraram tendências positivas no aumento dos preços dos computadores, já as variáveis multi e cd não apresentaram tendência nenhuma. O preço dos computadores apresenta um decrescimento com o passar dos anos, com exceção do final de 1995 onde o valor do produto tem um aumento súbito, razão não encontrada nos dados. Após transformar a variável price em logaritmo e torná-la o mais o mais próximo de uma distribuição norma, obteve-se 54.4% da variância do modelo, motivo para tal, é que talvez haja variáveis explicativas não observadas e que influenciem na variável resposta.
Alguma das limitações encontradas nos dados, é que em primeiro ponto, estamos trabalhando com dados de quase 30 anos atrás. Esses dados não contam com ajustes de inflação, juros e outros ajustes monetários. Existe também um salto de desempenho e configurações entre esse tempo não catalogado. Também temos de considerar que para os dias atuais, alguns dos hardwares começaram a se tornar obsoletos, onde podemos observar que no tempo atual HDs estão sendo alterados por SSDs e a troca de telas de tubo por monitor LCD e outras tecnologias, demonstrando que o perfil do consumidor se alterou com o tempo, sendo que entre 1993 a 1995 computadores ainda eram considerados artigo de luxo, refletindo que o presente estudo é transversal. Embora atualmente seja acessível ter um computador, o hardware evolui de tal maneira que apenas os itens citados no banco de dados não são suficientes para estimar nos dias atuais o preço final de um computador.